Many recent perturbation studies have found unintuitive results on what does and does not matter when performing Natural Language Understanding (NLU) tasks in English. Coding properties, such as the order of words, can often be removed through shuffling without impacting downstream performances. Such insight may be used to direct future research into English NLP models. As many improvements in multilingual settings consist of wholesale adaptation of English approaches, it is important to verify whether those studies replicate or not in multilingual settings. In this work, we replicate a study on the importance of local structure, and the relative unimportance of global structure, in a multilingual setting. We find that the phenomenon observed on the English language broadly translates to over 120 languages, with a few caveats.
translated by 谷歌翻译
Providing better language tools for low-resource and endangered languages is imperative for equitable growth. Recent progress with massively multilingual pretrained models has proven surprisingly effective at performing zero-shot transfer to a wide variety of languages. However, this transfer is not universal, with many languages not currently understood by multilingual approaches. It is estimated that only 72 languages possess a "small set of labeled datasets" on which we could test a model's performance, the vast majority of languages not having the resources available to simply evaluate performances on. In this work, we attempt to clarify which languages do and do not currently benefit from such transfer. To that end, we develop a general approach that requires only unlabelled text to detect which languages are not well understood by a cross-lingual model. Our approach is derived from the hypothesis that if a model's understanding is insensitive to perturbations to text in a language, it is likely to have a limited understanding of that language. We construct a cross-lingual sentence similarity task to evaluate our approach empirically on 350, primarily low-resource, languages.
translated by 谷歌翻译
几次学习的元学习算法旨在训练能够仅使用几个示例将新任务概括为新任务的神经网络。早期停滞对于性能至关重要,在对新任务分布达到最佳概括时停止模型训练。元学习的早期机制通常依赖于从训练(源)数据集中绘制的元验证集中的标记示例上测量模型性能。这在几个射击传输学习设置中是有问题的,其中元测试集来自不同的目标数据集(OOD),并且可能会在元验证集中具有较大的分配转移。在这项工作中,我们提出了基于激活的早期停滞(ABE),这是使用基于验证的早期播放进行元学习的替代方法。具体而言,我们分析了每个隐藏层的神经激活期间的演变,在目标任务分布的一项任务中,在一组未标记的支持示例上,因为这构成了从最小值和合理的信息中。目标问题。我们的实验表明,有关激活的简单标签不可知统计提供了一种有效的方法来估计目标概括如何随着时间的推移如何发展。在每个隐藏层,我们从第一阶和二阶矩来表征激活分布,然后沿特征维度进一步汇总,从而在四维空间中产生紧凑而直观的表征。检测何时,在整个训练时间以及在哪个层上,目标激活轨迹与源数据的激活轨迹有所不同,使我们能够在大量的几个射击传输学习设置中执行早期停滞并改善概括,并在不同算法,源和目标数据集。
translated by 谷歌翻译
该底漆是为了提供终身学习不同方面的详细摘要。我们从第2章开始,该第2章提供了终身学习系统的高级概述。在本章中,我们讨论了终身学习中的突出场景(第2.4节),提供8介绍,一个由不同终身学习方法组成的高级组织(第2.5节),列举Desiderata为理想的终身学习系统(第2.6节),讨论如何讨论如何讨论终身学习与其他学习范式有关(第2.7节),描述用于评估终身学习系统的常见指标(第2.8节)。对于那些毕生学习并希望在不关注特定方法或基准的读者中,本章更有用。
translated by 谷歌翻译
近年来,已经引入了越来越多的基于模型的强化学习(RL)方法。鉴于其许多潜在的好处,例如更高的样本效率和快速适应环境变化的潜力,对基于深层模型的RL的兴趣并不奇怪。但是,我们证明,使用最近引入的本地变化适应(LOCA)设置的改进版本,众所周知的基于模型的方法(例如Planet和Dreamerv2)在适应本地环境变化的能力方面表现不佳。结合先前的工作,对其他基于模型的方法Muzero进行了类似的观察,似乎出现了一种趋势,这表明当前基于深层模型的方法具有严重的局限性。我们通过识别损害适应性行为并将其与经常在基于DEEP模型的RL中经常使用的基础技术联系起来的元素,深入研究这种绩效不佳的原因。在线性函数近似的情况下,我们通过证明了线性DyNA的修改版本实现有效适应局部变化,从而验证了这些见解。此外,我们通过实验非线性版本的DYNA来提供详细的见解,以了解构建基于自适应非线性模型方法的挑战。
translated by 谷歌翻译
机器学习中的终身学习范式是一个有吸引力的替代方案,不仅是由于其与生物学学习的相似之处,而且它通过避免过度模型重新训练来减少能量浪费的可能性。对此范式的关键挑战是灾难性遗忘的现象。随着在机器学习中训练有素的模型的越来越受欢迎和成功,我们提出了问题:终身学习中的训练前比赛,特别是关于灾难性的遗忘?我们在大型预先训练模型的上下文中调查现有方法,并在各种文本和图像分类任务中评估其性能,包括使用15个不同的NLP任务的新型数据集进行大规模研究。在所有设置中,我们观察到,通用预训练隐含地减轻了在与随机初始化模型相比依次学习多个任务时灾难性忘记的影响。然后,我们进一步调查为什么预先训练缓解在这个环境中忘记。我们通过分析损失景观来研究这种现象,发现预先训练的重量似乎可以通过导致更宽的最小值来缓解遗忘。基于这一洞察力,我们提出了对当前任务损失和损失盆地锐利的共同优化,以便在连续微调期间明确鼓励更广泛的盆地。我们表明,这种优化方法导致与跨多个设置的任务顺序持续学习的性能相当,而无需保留具有任务数量的大小的内存。
translated by 谷歌翻译
当代理在终身学习设置中遇到连续的新任务流时,它利用了从早期任务中获得的知识来帮助更好地学习新任务。在这种情况下,确定有效的知识表示成为一个具有挑战性的问题。大多数研究工作都建议将过去任务中的一部分示例存储在重播缓冲区中,将一组参数集成给每个任务,或通过引入正则化项来对参数进行过多的更新。尽管现有方法采用了一般任务无关的随机梯度下降更新规则,但我们提出了一个任务吸引的优化器,可根据任务之间的相关性调整学习率。我们通过累积针对每个任务的梯度来利用参数在更新过程中采取的方向。这些基于任务的累积梯度充当了在整个流中维护和更新的知识库。我们从经验上表明,我们提出的自适应学习率不仅说明了灾难性的遗忘,而且还允许积极的向后转移。我们还表明,在具有大量任务的复杂数据集中,我们的方法比终身学习中的几种最先进的方法更好。
translated by 谷歌翻译
由于低资源域名,新任务以及需要大量培训数据的大规模神经网络的普及,最近,数据增强最近看到了对NLP的兴趣增加。尽管最近的高潮,但由于语言数据的离散性质所带来的挑战,这一领域仍然相对望远欠了。在本文中,我们通过以结构化方式概述文献来展示对NLP的全面和统一对NLP的数据。我们首先介绍和激励NLP的数据增强,然后讨论主要的方法论代表性方法。接下来,我们突出显示用于流行NLP应用程序和任务的技术。我们通过概述当前挑战和未来研究的指示来结束。总体而言,我们的论文旨在澄清现有文学的景观,以便NLP的数据增强,并激励该领域的其他工作。我们还提供了一个GitHub存储库,纸张列表将在https://github.com/styfeng/dataaug4nlp上不断更新
translated by 谷歌翻译
Offline reinforcement learning (RL) concerns pursuing an optimal policy for sequential decision-making from a pre-collected dataset, without further interaction with the environment. Recent theoretical progress has focused on developing sample-efficient offline RL algorithms with various relaxed assumptions on data coverage and function approximators, especially to handle the case with excessively large state-action spaces. Among them, the framework based on the linear-programming (LP) reformulation of Markov decision processes has shown promise: it enables sample-efficient offline RL with function approximation, under only partial data coverage and realizability assumptions on the function classes, with favorable computational tractability. In this work, we revisit the LP framework for offline RL, and advance the existing results in several aspects, relaxing certain assumptions and achieving optimal statistical rates in terms of sample size. Our key enabler is to introduce proper constraints in the reformulation, instead of using any regularization as in the literature, sometimes also with careful choices of the function classes and initial state distributions. We hope our insights further advocate the study of the LP framework, as well as the induced primal-dual minimax optimization, in offline RL.
translated by 谷歌翻译
由于监督模型无法学习可以在具有有限标签的域中概括的域名,因此自我监督学习(SSL)已成为计算机视觉中的理想范式。 SSL的最新流行导致了几种模型的开发,这些模型利用了不同的培训策略,架构和数据扩展政策,而没有现有的统一框架来研究或评估其在转移学习中的有效性。我们提出了一个数据驱动的几何策略,可以使用每个局部诱导的特征空间中的局部邻域分析不同的SSL模型。与考虑参数,单个组件或优化领域的数学近似的现有方法不同,我们的工作旨在探索SSL模型所学的表示歧管的几何特性。我们提出的歧管图指标(MGM)提供了有关可用SSL模型之间的几何相似性和差异的见解,它们在特定的增强方面的不变以及它们在转移学习任务方面的表现。我们的关键发现是两个方面:(i)与普遍的看法相反,SSL模型的几何形状与其训练范式(对比度,无对比性和基于群集)无关; (ii)我们可以根据其语义和增强歧管的几何特性来预测特定模型的传输学习能力。
translated by 谷歌翻译